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INVESTIGATING THE VALIDITY OF PSYCHOLOGICAL ASSESSMENT ACADEMIC COURSE EXAM 


In this article the validity of a psychological assessment knowledge test is discussed. Validity is an absolutely crucial 
characteristic of the educational test. It provides information on the adequacy of operationalization and the level to 
which the test meets established demands. An efficient method to define construct validity might be the analysis 
of non random changes in test scores. It applies comparing test scores — before and after inputting experimental 
manipulation. The results ought to reflect the causal effect of the manipulation. This method can be successfully 
implemented in determining validity of an educational test-by investigating the impact of class attendance on 
test scores. In this study we compare scores for psychological assessment knowledge test. Two comparison groups 
were formed on the basis of completing the academic course of psychological assessment. The analysis revealed 
a significant interaction between the completion of the course and the test scores, confirming that the test scores 
varied significantly depending on the completion of the psychological assessment course. In the latter section we 
conducted an analysis of the questions which differentiated comparison groups. 


WPROWADZENIE 


Wymóg trafności stosowanych narzędzi jest oczywisty 
w odniesieniu do testów psychologicznych. Mniej oczy- 
wisty jest odnośnie do testów dydaktycznych. W dalszej 
części przedstawiamy dane dotyczące trafności testu wia- 
domości? z przedmiotu „Diagnoza psychologiczna”. 


TESTY DYDAKTYCZNE I ICH CECHY 


W dydaktyce rozróżnia się — biorąc za kryterium funkcje, 
jakie spełniają w procesie nauczania — trzy rodzaje ocen: 
diagnostyczne (informujące o zdolnościach uczniów), for- 
matywne (sprawdzian kształtujący, ukierunkowujący; 
pozwalający na kontrolę bieżącą i sprzyjający doskonale- 
niu procesu dydaktycznego w sensie „jak się dalej uczyć” 
oraz „jak najlepiej nauczać”) i sumaryczne (sprawdzian 
sumujący, sumatywny, poświadczający, atestujący; 
umożliwiający kontrolę końcową i nastawiony na osza- 
cowanie wyników procesu kształcenia). Sprawdzanie 
osiągnięć studentów jest ważne zarówno dla prowadzą- 
cych zajęcia, studentów i ich przyszłych pracodawców. 
Na studiach psychologicznych do sprawdzania wiedzy 
(głównie teoretycznej) służą sprawdziany sumujące. 


* Korespondencję dotyczącą artykułu można kierować na ad- 
res: Władysław J. Paluchowski, Instytut Psychologii UAM, ul. 
Szamarzewskiego 89, 60-568 Poznań. 

e-mail: Wladysław.PaluchowskiQamu.edu.pl 
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W ostatnich latach głównym sposobem sprawdzania wie- 
dzy studentów są — zamiast egzaminów ustnych — testy 
wiadomości. Jest to forma akceptowana przez studentów 
ze względu na ten sam stopień trudności i ten sam zakres 
wiedzy dla wszystkich zdających, możliwość spokojnego 
zastanowienia się nad odpowiedzią, poprawienia błędnej 
odpowiedzi oraz obiektywne kryteria oceniania*. Także 
z punktu widzenia egzaminatorów pisemne testy wie- 
dzy mają przewagę nad ustnymi egzaminami — pozwa- 
lają szybciej sprawdzić i ogłosić wyniki (szczególnie gdy 
osób zdających jest dużo) oraz łatwiej udokumentować 
brak stronniczości przy ocenianiu. Niewątpliwie testy 
pisemne maja też wiele wad: nie dają wglądu w proces 
myślenia osoby egzaminowanej i wiedzy o jej sprawności 
komunikacyjnej, nie dają jej informacji zwrotnej o rodza- 
ju błędów popełnionych podczas uczenia się, mogą dawać 
większą szansę na dobry wynik w efekcie niesamodziel- 
nej pracy. 


1 Wykorzystano m. in. wyniki pracy magisterskiej Agaty Król 
„Elementy analizy ilościowej i jakościowej testu wiadomości 
z przedmiotu »Diagnoza psychologiczna«”, za których udostęp- 
nienie dziękujemy. 

2 W tekście będziemy zamiennie używać terminu „test wiadomo- 
ści” i „test wiedzy”. 

3 Używając analogii: jeżeli kucharz smakuje zupę to jest to oce- 
na kształtująca, jeżeli robi to klient, to jest to ocena podsumo- 
wująca. 

4 Na różnych studenckich forach podaje się też argument ła- 
twiejszego ściągania. 
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Pomiar sprawdzający, zwany też pomiarem odnoszo- 
nym do kryteriów (criterion—referenced measurement) to 
pomiar dydaktyczny, w którym wynikowi każdego bada- 
nego ucznia jest przyporządkowana pewna wartość skali 
pomiarowej, pozwalająca na wskazanie poziomu opano- 
wanej wiedzy z zakresu programu” (Niemierko, 1990; 
Hornowska, 2009). W dydaktyce stosowany jest również 
pomiar różnicujący, zwany pomiarem odnoszonym do 
norm (norm-referenced measurement), w którym wynik 
badania wiedzy ucznia porównujemy z przeciętnym po- 
ziomem wyników innych osób z określonej grupy odnie- 
sienia (Niemierko, 2009). 

Testy stosowane w dydaktyce dzielą się na wielo- 
stopniowe i jednostopniowe. W teście jednostopniowym 
wszystkie zadania traktuje się jako równorzędne (dla da- 
nego zakresu treści kształcenia), różnice między ucznia- 
mi odzwierciedla liczba poprawnie rozwiązanych przez 
nich zadań. Istotą testu sprawdzającego wielostopniowe- 
go jest hierarchizacja wymagań (Niemierko, 1999, s. 54). 
W klasycznym teście wielostopniowym przygotowuje się 
odrębne grupy zadań (o różnym udziale w całym teście) 
dla każdego poziomu wiedzy (treści konieczne, podstawo- 
we, rozszerzone, dopełniające i wykraczające poza pro- 
gram kształcenia; na każdym poziomie równorzędne). 
Formą testu wielostopniowego jest test hierarchiczno- 
-kryterialny, polegający na tworzeniu zadań otwartych, 
by można je było rozwiązać na wielu poziomach — od 
intuicyjno-zdroworozsądkowego do uzasadnionych lite- 
raturą. Korzystanie z podręczników i notatek podczas 
takiego testu jest dozwolone, a nawet zalecane. Tutaj 
każde z tych rozwiązań jest akceptowane, ale punktacja 
silnie różnicuje poziomy (Niemierko, 1991). 

Zadania testowe mogą być zamknięte lub otwarte, 
jednokrotnego lub wielokrotnego wyboru (kiedy więcej 
niż jedna odpowiedź jest prawidłową). Zadania otwarte 
nie mają gotowej propozycji odpowiedzi, student samo- 
dzielnie formułuje i wpisuje rozwiązanie; w zadaniach 
zamkniętych student wybiera odpowiedź spośród goto- 
wych. W zadaniach otwartych można wymagać krótkiej 
(1-2 słowa czy liczby) lub długiej wypowiedzi osoby egza- 
minowanej albo uzupełnienia zwrotu, zdania, fragmentu 
tekstu itp. Typowe pisemne zadanie zamknięte składa 
się z trzonu (w którym zawarty jest problem bądź pyta- 
nie), odpowiedzi prawidłowej oraz dystraktorów. Zestaw 
gotowych odpowiedzi do wyboru nazywany jest kafete- 
rią. Odpowiedź prawidłowa lub najlepsza z gotowych 
odpowiedzi podanych w zadaniu zamkniętym nazywana 
jest werstraktorem. Pozostałe proponowane przez autora 
testu odpowiedzi stanowią dystraktory, czyli odpowiedzi 
mogące stwarzać pozory prawidłowych lub stanowić al- 
ternatywę dla właściwego rozwiązania. Generalnie ich 


5 Częste definiowanie w pedagogice pomiaru odnoszonego do 
kryteriów jako pomiaru, w którym układem odniesienia wyni- 
ku każdego ucznia są wymagania programowe może prowadzić 
do nieporozumień — oczekiwane osiągnięcia uczniów nie muszą 
oznaczać opanowania treści podręcznika w 100%. Lepsze jest 
określenie oczekiwanego poziomu kompetencji. 
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zadaniem jest zakłócanie procesu wyboru odpowiedzi, 
odciąganie uwagi od odpowiedzi poprawnych dzięki po- 
wierzchownemu podobieństwu do odpowiedzi popraw- 
nych lub odwołaniu się do „ekonomii poznawczej” (łatwo- 
ści) albo do błędnej wiedzy. Dystraktory — jeśli nie mają 
być tylko pozorne — nie powinny odbiegać znacznie pod 
względem treściowym i formalnym od odpowiedzi pra- 
widłowej, nie powinny być banalne i w sposób oczywisty 
niedorzeczne. Dystraktory, podobnie jak werstraktory, 
można analizować określając ich atrakcyjność oraz moc 
różnicującą (związek z niskim wynikiem w teście wiedzy) 
(Niemierko, 2009). Trzon zadania zamkniętego w formie 
zdania prostego lub złożonego może wymagać potwier- 
dzenia prawdziwości jakiejś tezy, zdefiniowania czegoś, 
określenia celu, ustalenia przyczyny, przewidywania 
skutku, ustalenia związku, znajdowania (wskazywania) 
błędu, udzielenia odpowiedzi na pytania o to, jaką zasa- 
dę naruszono albo jak skorygować błędne działanie lub 
jego skutki, ustalenia różnicy czy podobieństwa, porząd- 
kowania czy też uzasadnienia opinii (Niemierko, 1999, 
s. 121). 

Zadania testu dydaktycznego (testu wiedzy) mogą 
być dla danej grupy łatwiejsze lub trudniejsze. Łatwość 
zadania (item easiness) to stosunek liczby punktów uzy- 
skanych przez testowanych studentów za rozwiązanie 
danej pozycji skalowej, do maksymalnej możliwej do 
osiągnięcia przez nich liczby punktów. Jej odwrotnością 
jest trudność zadań testowych. Jeśli zadania oceniane są 
jako prawidłowo i nieprawidłowo rozwiązane (1 i 0) to 
proporcja osób udzielających poprawnej odpowiedzi jest 
wskaźnikiem łatwości, a udzielających nieprawidłowej 
odpowiedzi wskaźnikiem trudności zadania testowego 
[może być to proporcja wśród wszystkich zdających — 
wtedy w grę wchodzą i osoby, które opuściły zadanie lub 
do niego nie dotarły i osoby odpowiadające nieprawidło- 
wo — lub tylko wśród osób rozwiązujących dane zadanie]. 

Trafność testu wiadomości jest jego najważniejszą 
charakterystyką. Wg Hornowskiej (2009) trafność jest to 
stopień adekwatności operacjonalizacji danej wielkości 
oraz stopień, w jakim test jest w stanie osiągnąć stawia- 
ne mu cele. Jej wartość liczbowa wskazuje na wielkość 
błędu spowodowanego rozbieżnością między zamierze- 
niami autora testu a tym, co test faktycznie mierzy. 
W pedagogice większy nacisk kładzie się na trafność sza- 
cowania aktualnych i/lub przyszłych osiągnięć uczniów 
(Niemierko, 1990). W testowaniu wyróżnia się* trafność 
wewnętrzną testu osiągnięć szkolnych (zgodność treści 
testu z treściami programu nauczania; trafność treścio- 
wa), trafność diagnostyczną (zgodność wyników testu 
z wynikami innych sposobów badania wiedzy; trafność 
kryterialna) oraz trafność prognostyczną (zgodność wy- 
ników testu z wynikami późniejszych osiągnięć; inna 
forma trafności kryterialnej). Dla testów dydaktycznych 
największe znaczenie ma trafność treściowa — odnoszona 
do wymagań programowych. 


s Jak pisze Hornowska (2007) współcześnie nie rozróżnia się 
rodzajów trafności, ale różne źródła danych o trafności. 


© Czasopismo Psychologiczne, Tom 18, Nr 1, 2012, 63-68 


Badanie trafności egzaminu z przedmiotu „Diagnoza psychologiczna 


Trafność kryterialną testu wiedzy ocenić można okre- 
ślając korelacje danego testu i innymi miarami, co do któ- 
rych można założyć, że wiedza na dany temat jest z nimi 
powiązana. Można też sprawdzać trafność testu wiedzy 
przez porównanie wyników testu i rzeczywistego zacho- 
wania. Hornowska pisze (2009), że jedną z form bada- 
nia teoretycznej trafności testu może być analiza zmian 
nieprzypadkowych wyników testu — porównywanie wy- 
ników dwukrotnego badania tym samym testem gdzie 
w przerwie między badaniami wprowadza się manipu- 
lację eksperymentalną. Wynik porównywania powinien 
być zgodny z założonymi efektami manipulacji. Wydaje 
się, że podobnie można postępować w odniesieniu do traf- 
ności testu wiadomości, badając wpływ udziału w zaję- 
ciach na wyniki w takim teście. 


PROBLEM, HIPOTEZY I ICH UZASADNIENIE 


Celem podjętych badań było sprawdzenie, czy studenci, 
którzy zdają kursowy egzamin z przedmiotu „Diagnoza 
psychologiczna” uzyskują lepsze wyniki w teście wia- 
domości z tego przedmiotu, niż studenci z innych lat. 
Inaczej mówiąc sprawdzono, czy przygotowywanie się 
do egzaminu (chodzenie na wykłady, czytanie zalecanej 
literatury przedmiotu) wpływa na wyniki testu wiedzy 
z zakresu diagnozy psychologicznej. Wyniki tych osób 
zestawiono z osobami z pierwszego roku studiów stacjo- 
narnych, którzy nigdy nie mieli tego przedmiotu oraz 
czwartego roku takich studiów, czyli tymi, którzy zda- 
wali taki egzamin wcześniej. Pierwsze pytanie badaw- 
cze brzmiało: Czy odbycie kursu z przedmiotu „Diagnoza 
psychologiczna” ma dodatni wpływ na wyniki uzyskane 
przez studentów w teście wiadomości z tego przedmio- 
tu? Było to pośrednie badanie trafności wykorzystanego 
testu wiadomości. Gdyby się okazało, że faktycznie taki 
wpływ daje się zaobserwować, można postawić następne 
pytanie: Czym różnią się formalnie i treściowo zadania 
które różnicują między grupami? 


METODA BADAWCZA 


Test wiadomości z przedmiotu „Diagnoza psychologicz- 
na” składa się z 40 zadań zamkniętych wielokrotnego 
wyboru. Każda pozycja zawierała kafeterię od trzech do 
pięciu propozycji rozwiązania. Pytanie oparte były na 
wskazanej studentom literaturze (Paluchowski, 2006, 
2007; Stemplewska-Zakowicz, Paluchowski, 2008) oraz 
treści wykładów. 

Dla celów egzaminacyjnych przygotowano 4 wersje 
(zestawy) testu. Zestawy zadań zostały wylosowane 
przez program komputerowy Quest v.1.1. firmy Question 
Mark Computing, z puli 550 zadań. Program przydzie- 
lił losowo zadania do zestawów, losowo ustalił również 
kolejność odpowiedzi do wyboru. Z gotowych odpowiedzi 
student musi wybrać zazwyczaj jedną prawidłową. Czas 
na wykonanie całości wynosił 35 minut. 
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OSOBY BADANE | PRZEBIEG BADAŃ 


Łącznie zbadano 320 studentów psychologii UAM: 30 
studentów pierwszego roku trybu stacjonarnego, 64 dru- 
giego roku trybu niestacjonarnego, 196 trzeciego roku 
trybu stacjonarnego oraz 30 studentów czwartego roku. 
Studenci są obyci z tą formą egzaminowania. Wykony- 
wanie testów podczas egzaminów (rok drugi i trzeci) oraz 
badań studentów pierwszego i czwartego roku przebie- 
gało w typowy sposób: studenci otrzymali cztery różne 
warianty testu, dodatkowe osoby nadzorowały przebieg, 
a ograniczony czas na rozwiązanie zdecydowanie utrud- 
niał próby kontaktu pomiędzy testowanymi. Na miejsce 
badania dostarczono odpowiednią liczbę arkuszy testo- 
wych oraz kart odpowiedzi, a pomieszczenia były przygo- 
towane na przewidywaną liczbę osób. Każda z grup pod- 
chodzących do egzaminu (badania) otrzymała instrukcje 
ustne od osób kierujących przebiegiem testowania, do- 
datkowo na kartach odpowiedzi zawarte były informacje 
o konieczności podania swoich danych osobowych wraz 
z numerem indeksu, oznaczenia karty literą symbolizu- 
jącą wersję rozwiązywanego kwestionariusza oraz pole- 
cenie sposobu zakreślania wybranych rozwiązań. 


REZULTATY 


Średnie wyniki w poszczególnych grupach przedstawio- 
no w Tabeli 1 (wynik progowy to 25 punktów — wynik 
poniżej oznaczał ocenę niedostateczną). 


Tabela 1 
Średnie wyniki badanych grup 


średnia odch. statyst. 
rok 1 16.33 3.68 
rok 2 24.16 4.27 
rok 3 27.04 4.47 
rok 4 19.43 4.36 
rok 5 24.75 5.61 


Trudność zadań wahała się od 0 do 1. Jej krańcowe 
wartości w poszczególnych wersjach przedstawiono w Ta- 
beli 2. 

Aby mieć podstawę do traktowania wersji testu wia- 
domości jako równoległych, zastosowano test Levene' a 
oraz l-czynnikową analizę wariancji. Okazało się, że 
wariancje i odchylenia standardowe we wszystkich czte- 
rech grupach są równe (F-Levene'a, „,„=1.73; p,=.16), 
a różnica między średnimi jest nieistotna statystycznie 
(Fi 3167-9166; p,=.4881). Na tej podstawie przyjęto, że do 
dalszej analizy wykorzystane będą — na równych pra- 
wach — wszystkie cztery wersje testu wiedzy. 


WERYFIKACJA HIPOTEZ 


Chcąc sprawdzić, czy wykonanie testu wiadomości jest 
różne w badanych grupach najpierw sprawdzono jedno- 
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rodność wariancji — ze względu na duże nierówności li- 
czebności grup — testem Browna-Forsythe'a (F, „,„=.4669; 
p,=.1056). W związku z tym, że wariancje okazały się 
jednorodne, zastosowano następnie 1-czynnikową ana- 
lizę wariancji i okazało się, że różnica między średnimi 
jest istotna statystycznie (F, 770.6716; p,=.0001). Aby 
sprawdzić, które różnice są istotne (p,<=.05), wykorzy- 
stano test Scheffe'go. Nieistotna statystycznie okaza- 
ła się jedynie różnica między studentami pierwszego 
i czwartego roku trybu stacjonarnego (p,<=.05714)7. 
W efekcie stworzono dwie grupy: „bez wykładu”, obej- 
mująca studentów pierwszego roku oraz czwartego roku 
trybu stacjonarnego oraz „po wykładzie”, w której zna- 
leźli się studenci drugiego roku trybu niestacjonarnego 
i trzeciego roku trybu stacjonarnego. 


Tabela 2 
Wartości wskaźnika trudności zadań w poszczególnych grupach 
i wersjach testu 


wersja wartość min. wartość maks. 
testu (trudne) (łatwe) 
grupa „071 „857 
„bez 
wykładu” B 000 .875 
C .067 :933 
D .067 .933 
grupa A .081 .959 
„bez 
wykładu” B 174 1.000 
c .148 .963 
D .190 936 
Tabela 3 


Ze względu na charakter zmiennych i wielkość grup, 
analizując różnice między sposobem odpowiadania na 
poszczególne zadania w zestawach wykorzystano test 
dokładnego prawdopodobieństwa Fishera; do dalszej 
analizy brano te wyniki, dla których p,<=.05 (test dwu- 
stronny). 

Relację między grupami wśród zadań różnicujących 
między trudnością zadań grupy „bez wykładu” i grupy 
„po wykładzie” pokazuje Tabela 3 (niezależnie od wer- 
sji testu). Generalnie więc różnice obserwowano tam, 
gdzie w grupie „po wykładzie” były zadania umiarkowa- 
nie trudne i łatwe, a w grupie „bez wykładu” relatywnie 
trudne i umiarkowanie trudne (por. Tabela 3). 


OMÓWIENIE WYNIKÓW 


Potwierdziła się hipoteza, że odbycie kursu z przedmiotu 
„Diagnoza psychologiczna” ma dodatni wpływ na wyni- 
ki uzyskane przez studentów w teście wiadomości z tego 
przedmiotu. Zgodnie z oczekiwaniem najniższe wyniki 
osiągnęli studenci pierwszego roku trybu stacjonarnego, 
następnie czwartego roku oraz kolejno studenci drugiego 
roku trybu niestacjonarnego i trzeciego roku trybu sta- 
cjonarnego. Wyniki te potwierdzają trafność egzaminu 
z przedmiotu. 

Choć generalnie globalne wyniki testu wiadomości 
różnicują grupy, to średnio tylko 39.4% zadań różnicuje 
grupy studentów „po wykładzie” i „bez wykładu”. Inaczej 
mówiąc, bez wysłuchania wykładu, a jedynie na podsta- 
wie wiedzy z innych zajęć (a nawet spoza studiów) moż- 
na udzielić średnio 16 poprawnych odpowiedzi. Można 
z tego wyciągnąć wniosek, że test był trafny, ale stosun- 
kowo łatwy: w grupie osób „po wykładzie” średni wynik 


Relacja między trudnością zadań grupy „bez wykładu” i grupy „po wykładzie” 


grupa „bez wykładu” 


0-.19 .20 — .49 „50 — .69 .70 — .89 .90 — 1 
(b. trudne) (b. łatwe) 
0-.19 
(b. trudne) > i e 0 0 
.20 — .49 1 0 1 0 0 
grupa 
„po wykładzie” .50 — .69 4 12 0 0 0 
.70 — .89 4 13 5 0 0 
„90 — 1 
(b. łatwe) 1 6 11 4 0 


1 Sprawdzono także tę różnicę testem ż Studenta — i w tej ana- 
lizie różnica okazała się istotna statystycznie (t= -2.976; p,= 
.0042). 
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to 67.6% wyniku maksymalnego (dla studentów niesta- 
cjonarnych 60.4%). Jeszcze silniej widać to przy analizie 
wyników w grupie osób „bez wykładu”: średni wynik to 
40.8% wyniku maksymalnego dla studentów pierwsze- 
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Badanie trafności egzaminu z przedmiotu „Diagnoza psychologiczna” 
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Ryc. 1. Wyniki testu wiadomości w obu grupach 


go roku i 48.6% dla studentów czwartego roku. Jednak 
porównanie rozkładu wyników w dwóch podstawowych 
grupach — po i bez wykładu — wyraźnie pokazuje, że 
w grupie studentów „bez wykładu” wyniki w większości 
lokują się po stronie niskich (zdecydowanie poniżej wyni- 
ku progowego, czyli 25 punktów) (Rycina 1). 

Biorąc pod uwagę treść pytań, różnicujące pytania 
dotyczyły: rodzaju danych wg Cattella, standaryzacji, 
kwestionariuszowych skal kontrolnych, hipotezy dewia- 
cyjnej Berga, charakterystyki i okoliczności powstania 
systemów klasyfikacji DSM i ICD, istoty wyjaśnień psy- 
chologicznych. Inaczej mówiąc istotną trudność sprawia- 
ły grupie „bez wykładu” odpowiedzi na pytania dotyczące 
specyficznych treści zawartych w zalecanej literaturze 
(i przekazywanych podczas wykładu). 

Szukając wspólnych cech formalnych zadań różnicu- 
jących analizowano długość trzonu oraz całości, liczbę 
alternatyw do wyboru oraz pozycje (miejsce) tak odpo- 
wiedzi prawidłowych, jak i dystraktorów. Nie zauważo- 
no żadnych cech charakterystycznych dla tych pozycji. 
Także w odniesieniu do miernika łatwości czytania Fle- 
scha (Flesch Reading Ease Level) jak i miernika szkolne- 
go Flescha-Kincaida (Flesch-Kincaid Grade Level) oraz 
wskaźnika Mglistości Gunninga (Gunning Fog Index) 
nie zauważono poważnych różnic, choć zadania nie róż- 
nicujące w poszczególnych wersjach wydają się trochę 
trudniejsze do zrozumienia (por. Tabela 48). 

Można też (na podstawie Tabeli 2) zaryzykować wnio- 
sek, iż studenci z grupy „bez egzaminu” lepiej odpowia- 
dają na zadania, których treść jest zbliżona do języka 
potocznego oraz przywołuje codzienne okoliczności, niż 


8 Obliczenia wykonano za pomocą programu Flesh 2.0 (http:// 
flesh.sourceforge.net) oraz strony Simona Bonda (http://gun- 
ning-fog-index.com/fog.cgi). Znaczenia tych wskaźników opisuje 
Anna Seretny (2006). 
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na polecenia napisane w Ściśle specjalistycznym języku. 
Rozwiązując te pozycje studenci mogli posłużyć się rów- 
nież wiedzą z innych obszarów psychologii (psychome- 
tria, statystyka, etyka). 

Jak pisze Król (2001. str. 51) ,...zaobserwowano wiele 
spontanicznych (...) reakcji studentów: ci z I roku, mimo 
wyrażenia zgody na badanie i entuzjazmu, byli zupełnie 
zdezorientowani zadaniami testu i ... oceniali egzamin 
jako ‘abstrakcyjny’ i bardzo trudny. Odwrotnie niż stu- 
denci IV roku, którzy ... pytania uznawali za 'całkiem 
oczywiste (jeden z wielu komentarzy), a niepewność co 
do prawidłowych odpowiedzi przypisywali swojej nie- 
pamięci lub nie dość uważnej i skutecznej nauce (wie- 
lokrotnie powtarzany komentarz ‘trzeba się było lepiej 
tego nauczyć)”. 


Tabela 4 
Porównanie wskaźników czytalności dla zadań 


zadania zadania nie 

różnicujące różnicujące 
wskaźnik łatwości czytania Flescha 23.09 28.29 
wskaźnik szkolny Flescha-Kincaida 15.55 15.24 
średnia liczba sylab w słowie 1.91 1.82 
wskaźnik Gunning Fog 23.39 27.02 


Powodem do refleksji może być stosunkowo niski wy- 
nik studentów czwartego roku trybu stacjonarnego (por. 
Tabela 1). Potwierdziły się oczekiwania, że wypadną oni 
w teście wiadomości lepiej niż studenci pierwszego roku 
(różnica była — jak wspomniano — istotna statystycz- 
nie), ale jednak uzyskali oni średni wynik zdecydowanie 
poniżej progu kwalifikacyjnego. Gdyby założyć, że ich 
motywacją do uczenia się nie jest jedynie chęć zdania 
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egzaminu, ale też (głównie?) zdobywanie zawodowych 
kompetencji (Stemplewska-Zakowicz i Paluchowski, 2008), 
to ich wynik musi niepokoić. Zbyt skutecznie bowiem 
„pozbywają się” oni wiadomości nabytych podczas zajęć 
z przedmiotu „Diagnoza psychologiczna” w efekcie udziału 
w innych zajęciach i praktykach studenckich. 

Przedstawione powyżej wyniki badania dowodzą, że 
egzamin z przedmiotu „Diagnoza Psychologiczna” jest 
trafnym narzędziem pomiarowym. Biorąc pod uwagę 
fakt, że testy wiadomości są najchętniej wykorzystywa- 
ną metodą ewaluacji osiągnięć studentów na wyższych 
uczelniach, badania trafnościowe dotyczące egzaminów 
powinny być standardowym krokiem w projektowaniu 
programu dydaktycznego, bowiem tylko na podstawie 
wyników trafnego testu można adekwatnie ocenić sto- 
pień realizacji założonych celów dydaktycznych. 
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